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摘 要 : [目的 /意义 ] 针 对 目前 专利 关键 词 抽取 工法 评价 中 主要 采用 抽取 的 关键 词 与 专家 人 工 标注 关键 词 进行 匹配 存在 
的 问题 ,提出 一 种 基于 信息 增益 与 相似 度 的 专利 关键 词 抽取 算法 评价 模型 。[ 方法 /过程 ] 提 出 的 评价 模型 从 内 部 
和 和 外 部 两 个 层面 评估 专利 关键 词 抽取 算法 的 准确 性 。 其 中 ,内 部 评价 模型 度量 待 评价 算法 抽取 的 每 个 关键 词 的 
信息 增益 ,以 评估 被 抽取 的 关键 词 的 新 络 性 与 创造 性 ; 外 部 评价 模型 使 用 待 评价 算法 抽取 的 关键 词 集 表示 专利 ， 
计算 相关 专利 的 相似 度 ,衡量 算法 抽取 的 关键 词 描述 专利 主题 的 有 效 性 。| 结果 /结论 ] 通 过 评价 模型 有 效 性 验证 
实验 与 评价 模型 应 用 实证 研究 ,结果 表明 提出 的 基于 信息 增益 与 相似 度 的 评价 模型 具有 可 行 性 与 有 效 性 。 
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专利 关键 词 是 表明 专利 文献 主题 内 容 的 一 组 词 或 
着 短 语 ,被 广泛 应 用 于 专利 分 类 .新兴 技术 监测 呈 、 
专利 检索 ”专利 聚 类 中 等 专利 分 析 之 中 。 而 专利 通 
常宁 包含 关键 词 ,需要 人 工 标 引 。 由 于 专利 文献 篇 幅 
控 内容 专业 , 且 近 年 来 数量 急剧 增长 ,使 得 人 工 标 
纺 委 利 关键 词 方法 已 无 法 满足 专利 文献 分 析 的 需要 。 
因 路 ,利用 计算 机 自动 高 效 , 准 确 地 抽取 专利 关键 词 
是 三 个 重要 的 研究 课题 。 目 前 专利 关键 词 抽取 研究 主 
要 种 中 于 专利 关键 词 抽取 算法 的 改进 ,而 研究 中 各 种 
改进 算法 的 评价 通常 将 算法 抽取 的 关键 词 与 专家 人 工 
标注 的 关键 词 进行 匹配 ,以 评估 抽取 算法 的 有 效 性 。 
然而 ,依靠 专家 人 工 标注 专利 关键 词 费时 费力 .标注 数 
量 有 限 ,存在 领域 局 限 性 ,语言 依赖 性 ,主观 性 等 问题 ， 
使 得 专利 关键 词 抽取 算法 无 法 有 效 地 被 评价 ,阻碍 专 


抽取 的 关键 词 集 表示 专利 文献 ,计算 相关 专利 的 相似 
度 , 以 评 佑 抽取 的 专利 关键 词 表示 专利 主题 内 容 的 准 
确 性 。 此 外 ,本 文 提出 的 评价 模型 不 仅 适用 于 专利 文 
献 关键 词 抽取 算法 评价 ,也 适用 于 学 术 文献 等 相关 文 
献 关 键 词 抽取 算法 评价 。 

总 的 ,本 文 贡献 如 下 : 

(1) 鉴 于 目前 专利 关键 词 抽取 算法 评价 方法 存在 
的 不 足 , 提 出 基于 信息 增益 与 相似 度 的 专利 关键 词 抽 
取 算 法 评价 模型 (第 3 节 )。 

(2) 进 行 评价 模型 有 效 性 实验 ,结果 表明 本 文 提 
出 的 评价 模型 的 有 效 性 (第 4 节 )。 

(3) 利 用 本 文 提 出 的 评价 模型 进行 应 用 实证 分 
析 , 评 价 3 种 专利 关键 词 抽取 策略 ,应 用 结果 表明 本 文 
提出 的 评价 模型 的 有 效 性 与 可 行 性 (第 5 节 )。 


2 相关 研究 


利 关 键 词 抽取 算法 的 进一步 深入 研究 。 

据 此 ,本 文 提 出 一 种 基于 信息 增益 与 相似 度 的 专 
利 关键 词 抽取 算法 评价 模型 ,以 缓解 目前 评价 方法 的 
不 足 。 提 出 的 评价 模型 从 内 部 和 外 部 两 个 层面 ,分 别 
评价 算法 抽取 关键 词 的 准确 性 。 其 中 ,内 部 评价 通过 
计算 带 评价 算法 抽取 的 每 个 关键 词 的 信息 增益 ,度量 
被 抽取 关键 词 的 新 颖 性 和 创造 性 ;外 部 评价 使 用 算法 


关键 词 抽取 算法 评价 主要 考察 算法 抽取 的 关键 词 
集合 反应 文献 主题 内 容 的 准确 程度 。 评 价 方 法 可 分 为 
内 部 评价 方法 (intrinsic evaluation ) 和 外 部 评价 方法 
(extrinsic evaluation ) 两 大 类 "| 。 

内 部 评价 方法 将 算法 抽取 的 关键 词 与 正确 关键 词 
进行 匹配 ,判断 被 抽取 的 关键 词 是 否 正确 ,然后 使 用 评 
分 指标 评价 抽取 算法 的 准确 性 。 
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其 中 ,匹配 通常 采用 精确 匹配 法 ,即将 算法 抽取 的 
关键 词 与 文献 作者 或 者 专家 人 工 标注 的 关键 词 ( 称 为 
金 标准 关键 词 ) 进 行 比较 。 然 而 ,精确 匹配 比较 条 件 过 
于 严格 ,忽略 了 语义 关联 ,如 两 个 关键 词 之 间 为 同义词 
或 者 部 分 匹配 等 情况 ,造成 评价 结果 的 不 可 靠 。 为 此 ， 
一 些 研究 在 精确 匹配 的 基础 上 ,添加 模糊 匹配 方法 作 
为 补充 。 如 ,采用 编辑 距离 计算 关键 词 间 的 词 形 相似 
度 ,采用 概率 模型 计算 关键 词 间 的 语义 相似 度 ” ,以 
及 综合 考虑 词 形 与 语义 信息 的 相似 度 进行 匹配 吓 。 

内 部 评价 方法 中 使 用 最 广泛 的 评分 指标 为 查 准 率 
(precision,P)、 查 全 率 (recall,R) 和 Fl 值 (Fl- 
score) ” "1 。 奉 准 率 度量 匹配 关键 词 占 所 抽取 关键 词 
比率 ; 查 全 率 衡量 匹配 关键 词 占 金 标准 关键 词 比率 ;Fl 
仿 为 查 准 率 和 查 全 率 的 加 权 平均 。 然 而 ,这 些 评分 指 
于 痊 有 考虑 被 抽取 关键 词 的 顺序 。 实 际 上 ,如 果 匹 配 
关 迎 词 具有 更 高 的 排名 , 则 该 抽取 算法 具有 更 高 的 准 
确 镍 .为 此 ,一 些 研究 将 评分 指标 进行 改进 ,根据 被 抽 
取 光 键 词 排名 顺序 进行 评分 ,如 Precision@ KI 指标 
卷 虑 前 K 个 被 抽取 的 关键 词 ,计算 被 抽取 关键 词 的 查 
准 蚤 ,K 通常 取 1 .3 .5 ,10 等 值 ;平均 倒数 排名 (mean 
reigrocal rank ,MRR ) 1 -中 度量 第 1 个 匹配 的 关键 词 
的 排名 情况 ;二 元 偏好 度量 (Binary preference measure， 
BH) -中 计算 提取 结果 中 错误 提取 的 词语 的 排名 
情 演 。 
>< 外 部 评价 方法 将 算法 抽取 的 关键 词 用 于 一 个 特定 
的 启用 之 中 。 通 过 度量 这 些 应 用 的 性 能 ,间接 地 评价 
算法 抽取 关键 词 的 效果 。 如 文本 分 类 "” 、 聚 类 或 检 
需 河 ,根据 这 些 特定 任务 的 结果 来 评价 关键 词 抽取 方 
法 的 效果 。 由 于 外 部 评价 方法 是 针对 特定 任务 ,所 以 
任务 中 所 使 用 语 料 的 质量 规模、 任务 采用 的 算法 均 对 
评价 结果 有 很 大 影响 , 且 特 定 任务 本 身 的 计算 量 通常 
会 超过 关键 词 抽取 算法 本 身 的 计算 量 ,从 而 使 得 评价 
速度 难以 满足 实际 需要 。 因 此 ,目前 外 部 评价 方法 较 
少 用 于 关键 词 抽取 算法 效果 评价 。 

目前 内 部 评价 方法 是 使 用 最 为 广泛 的 评价 方法 。 
然而 ,该 评价 方法 具有 较 大 局 限 性 。 其 中 ,一 些 文献 ， 
尤其 是 专利 文献 本 身 没有 关键 词 ,需要 在 评价 抽取 算 
法 时 ,人 工 标注 关键 词 作为 金 标准 关键 词 。 而 人 工 标 
注 关 键 词 工作 量 大 、 具 有 主观 性 与 任意 性 。 语 料 类 型 、 
标注 粒度 ,标注 人 员 专 业 素 质 等 条 件 不 同 ,在 不 同 数据 
集 上 的 标注 结果 存在 较 大 差异 。 因 此 需要 多 位 领域 专 
家 参与 标注 ,并 计算 专家 之 间 标注 关键 词 的 一 致 程度 ， 
如 通常 使 用 Kappa 统计 衡量 不 同 标注 的 一 致 性 。 虽 然 


目前 有 一 些 开源 的 标注 数据 集 ” ,但 这 些 数据 集 标 
注 可 靠 性 较 差 ” ,通常 为 特定 领域 的 英文 数据 集 , 且 没 
有 专门 的 专利 关键 词 标注 数据 集 。 

因此 ,研究 者 探索 在 没有 金 标准 关键 词 的 情况 下 
进行 关键 词 抽 取 算 法 评价 。 如 章 成 志 ” 使 用 词语 的 频 
度 和 位 置信 息 抽 取 文 献 关键 词 作 为 金 标准 关键 词 , 然 
后 与 待 评价 算法 抽取 的 关键 词 集合 进行 相似 度 比较 ， 
以 评价 算法 准确 性 。 然 而 ,该 评价 方法 基于 这 样 一 个 
假设 , 即 ,使 用 词语 频 度 和 位 置信 息 抽取 的 文献 关键 词 
为 金 标准 ,实际 上 , 仅 使 用 词语 频 度 和 位 置信 息 得 到 的 
关键 词 并 不 能 准确 反应 文献 内 容 。 反 之 , 若 使 用 词语 
频 度 和 位 置信 息 得 到 的 关键 词 能 够 作为 金 标准 关键 
词 ,准确 反应 文献 主题 内 容 , 则 不 需要 关键 词 抽 取 算 法 
的 改进 研究 。 

基于 以 上 分 析 , 本 文 提 出 一 种 新 的 评价 模型 以 组 
解 目前 评价 方法 存在 的 不 足 , 促 进 专利 关键 词 抽取 算 
法 研究 的 进一步 发 展 。 


3 评价 模型 


3.1 评价 模型 原理 

评价 模型 从 内 部 评价 和 外 部 评价 两 个 层面 ,分 别 
提出 基于 信息 增益 的 内 部 评价 模型 和 基于 相似 度 的 外 
部 评价 模型 。 内 部 评价 使 用 信息 增益 分 别 度量 每 个 被 
抽取 关键 词 的 有 效 性 ;外 部 评价 则 将 算法 抽取 的 关键 
词 集 作 为 一 个 整体 ,表示 专利 文献 主题 内 容 ,计算 专利 
间 的 相似 度 , 以 衡量 关键 词 集 刻画 文献 主题 内 容 的 准 
确 性 。 
3.1.1 基于 信息 增益 的 内 部 评价 模型 原理 

专利 关键 词 应 表明 专利 主题 内 容 , 体 现 专利 的 新 
颖 性 和 创造 性 。 因 此 专利 关键 词 应 携带 尽 可 能 多 的 区 
分 已 有 专利 的 信息 量 。 信 息 增 益 (information gain， 
1G) 表 示 在 某 一 条 件 下 随机 事件 不 确定 性 的 减少 程度 ， 
从 而 表明 该 条 件 所 携带 的 信息 量 。 当 被 抽取 的 关键 词 
使 得 已 有 系统 的 不 确定 性 减少 越 多 , 则 该 被 抽取 的 关 
键 词 包 含 的 信息 量 越 大 。 算 法 的 信息 增益 则 可 用 该 算 
法 抽取 的 关键 词 的 信息 增益 均值 表示 ,以 度量 算法 抽 
取 关 键 词 新 颖 性 和 创造 性 的 能 
图 1 为 基于 信息 增益 的 内 部 评价 模型 原理 示例 。 
在 图 1 中 , 待 评价 算法 1 和 算法 2 分别 从 目标 专利 抽 
取 2 个 关键 词 ,通过 构建 相关 专利 数据 集 ,计算 算法 1 
抽取 的 关键 词 “ 锂 离子 ”和 “三 元 ”的 信息 增益 分 别 为 
0.41 和 1.85, 因 此 ,算法 1 的 信息 增益 为 1.13; 算 法 2 
抽取 的 关键 词 “ 发 明 ” 和 “电池 ”的 信息 增益 分 别 为 
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0.01 和 0.11, 因 此 算法 2 的 信息 增益 为 0.06。 表 明 使 


用 算法 1 抽取 的 关键 词 携带 更 多 的 信息 量 ,更 能 体现 
目标 专利 的 新 颖 性 与 创造 性 。 


待 评价 算法 


待 评价 算法 2 


目标 专利 发 明 
A AN 电池 
ER 
专利 A 
信息 增益 =(0.41+1.85)/2 数据 集 信息 增益 =(0.01+0.11)/2 
13 =0.06 


图 1 基于 信息 增益 的 内 部 评价 模型 原理 示例 


根据 上 述 分 析 可 知 ,基于 信息 增益 的 内 部 评价 模 
型 与 传统 的 内 部 评价 模型 的 异同 点 。 相 同 之 处 在 于 ， 


待 评价 算法 1 待 评价 算法 2 
相位 度 -2 _ | | 相似 度 =2 
> ) 目标 专利 > 
相似 度 -1 二 A 二 | 相似 度 =2 


图 2 基于 相似 度 的 外 部 评价 模型 原理 示例 


根据 上 述 内 容 分 析 基 于 相似 度 的 外 部 评价 模型 与 
传统 的 外 部 评价 模型 的 异同 点 。 相 同 之 处 在 于 ,两 者 
均 使 用 算法 抽取 的 关键 词 表示 文献 主题 ,应 用 于 具体 
应 用 中 ,以 评价 算法 的 准确 性 。 不 同 之 处 在 于 ,相对 于 


两 者 均 对 算法 抽取 的 每 个 关键 词 进行 评价 。 不 同 之 
处 在 于 ,传统 的 内 部 评价 模型 对 每 个 抽取 的 关键 词 
与 使 标准 关键 词 进行 匹配 ,而 本 文 提出 的 基于 信息 
增 芝 的 内 部 评价 模型 则 无 需 人 工 标注 关键 词 , 通 过 
度量 每 个 被 抽取 关键 词 的 信息 增益 ,衡量 算法 的 有 
并 各 . 

3GS 基于 相似 度 的 外 部 评价 模型 原理 

< 十 专利 关键 词 反应 专利 主题 内 容 ,因此 外 部 评价 模 
型 俩 用 抽取 的 关键 词 表示 专利 ,通过 关键 词 集 计 算 专 
种 天 的 相似 度 , 以 检测 其 刻画 专利 主题 内 容 的 准确 性 。 
录 天 中 的 创新 不 是 孤立 事件 ,创新 在 一 定 程度 上 体现 
授 和 的 承接 。 专 利 审查 员 会 对 照相 似 专利 ,标注 相关 
相 令 专利 为 引用 专利 , 故 引 用 专利 在 一 定 程度 上 刻画 
国际 专利 与 引用 专利 的 相似 性 。 研 究 表明 ,目标 
专 旺 与 引用 专利 比 目 标 专利 与 随机 专利 具有 更 高 的 相 
似 庆 呈 - 的 。 因 此 ,本 文 利用 算法 抽取 的 关键 词 集 计算 
目 怀 专 利 与 引用 专利 的 相似 度 .目标 专利 与 随机 专利 
的 相似 度 , 以 检测 算法 刻画 专利 提取 专利 主题 的 准 
确 性 。 
图 2 为 基于 相似 度 的 外 部 评价 模型 原理 示例 。 待 
评价 算法 1 和 待 评价 算法 2 分 别 从 目标 专利 ,引用 专 
利和 随机 专利 抽取 3 个 关键 词 。 待 评价 算法 1 抽取 的 
关键 词 集中 ,目标 专利 与 引用 专利 具有 相同 的 关键 记 
“ 锂 离子 “正极 ” ,其 相似 度 为 2, 目 标 专利 与 随机 专利 
仅 有 一 个 共同 关键 词 “ 锂 离子 ” ,其 相似 度 为 1; 待 评价 
算法 2 中 ,目标 专利 与 引用 专利 的 相同 关键 词 为 “发 
明 ”" 和 “电池 ” ,相似 度 为 2, 目 标 专利 与 随机 专利 的 相 
同 关键 词 为 “发 明 ” 和 “电池 ” ,相似 度 为 2。 算 法 1 得 
到 的 目标 专利 与 引用 专利 的 相似 度 大 于 目标 专利 与 引 
用 专利 的 相似 度 , 符 合 直 沉 ,更 准确 地 刻画 了 专利 主题 
内 容 ,因此 算法 1 比 算法 2 具有 更 好 的 关键 词 抽取 
效果 。 


传统 的 外 部 评价 模型 ,本文 提出 的 基于 相似 度 的 外 部 
评价 模型 不 需要 复杂 的 外 部 应 用 ,通过 计算 目标 专利 
与 引用 专利 ,以 及 目标 专利 与 随机 专利 的 相似 度 ,评价 
算法 的 准确 性 , 比 传统 方法 更 具 实用 性 。 

3.2 评价 模型 具体 描述 

3.2.1 基于 信息 增益 的 内 部 评价 方法 

信息 增益 表示 某 一 条 件 y 下 ,随机 事件 工 不 确定 

性 的 减少 程度 ,从 而 表明 该 条 件 y 所 携带 的 信息 量 : 

IG(y) = H(X) -H(XIy) 式 (1) 
其 中 ,及 表示 信息 炉 ,H(X) = - ?1p(%i) logp 
(x;) ,p(x;) 代 表 随机 事件 X 为 *,; 的 概率 ,H(X) 用 于 衡 
量 系统 的 不 确定 性 ,系统 不 确定 性 越 大 , 则 信息 箭 越 
高 ;H(X1y) = -ii p(xily) logP (xi1y) ,H(XIY) 表 
示 条 件 y 下 ,系统 的 不 确定 性 。 信 息 增益 通过 衡量 条 
件 y 出 现 前 后 信息 彤 的 变化 ,表明 其 通过 引入 信息 的 
多 寡 以 消除 系统 不 确定 的 程度 。 当 新 的 信息 被 接受 和 
处 理 ,系统 不 确定 性 减少 。 如 果 信息 消除 的 不 确定 性 
越 大 , 则 其 包含 的 信息 量 也 就 越 大 。 

据 此 ,本 文 构建 如 图 3 所 示 的 专利 数据 集 $ = 
[CC CC = 1,2,…,n) 表 示 某 专利 类 
别 , Ci= [dii, disy ,dinl sdij(j = 1,2,…,m) 为 
C; 类 别 中 的 一 个 专利 ,专利 关键 词 应 携带 尽 可 能 多 的 
言 息 ,以 区 分 不 同 专利 类 别 ,以 及 相同 专利 类 别 中 不 同 
专利 ,消除 尽 可 能 多 的 不 确定 性 。 进 一 步 地 ,本文 将 消 
除 专利 类 别 间 不 确定 的 信息 增益 称 为 类 别 信息 增益 
(Information Gain of Class，7CC ) ,把 消除 同一 类 别 内 不 
同 专利 文献 的 不 确定 的 信息 增益 称 为 文档 信息 增益 
(information gain of document ，7CD ) 。 

具体 地 ,给 定 目标 专利 4 抽取 的 关键 词 o, 类 别 
信息 增益 度量 w 携带 的 信息 量 , 消除 专利 类 别 间 不 确 
定性 的 能 
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di es ds we 国 we 加 


图 3 基于 信息 增益 的 专利 数据 集 构建 


IGC(w) =( -Ep(C) logp (C)) -(- Ep 
(Cilw) log p( Clw)) 式 (2) 
其 中 ,p(C,) 表 示 类 别 C, 出 现 的 概率 , p( Cilw) 表 
示 词 语 w 出 现 后 ,类 别 C, 出 现 的 概率 。 正 确 的 专利 关 
键 词 应 携带 较 多 的 信息 , 尽 可 能 多 地 消除 专利 类 别 间 
的 不 确定 性 。 
文档 信息 增益 度量 w 消除 与 目标 专利 d, 在 同一 
类 别 C 的 不 同 专利 文献 的 不 确定 性 的 能 力 : 
ICD(w) =( -Emp(di)) logp (d))) -( -EY 
PB 1) logp(d lw)) 式 (3) 
本 其 中 ,p(d,) 表示 专利 d, 出现 概 率 ,p( dj1w) 表 示 
训 刘 。 出 现 后 ,专利 忆 出现 的 概率 。 关 键 词 应 携带 较 
的 信息 ,消除 同一 类 别 内 专利 文献 间 的 不 确定 性 。 
< 二 最终 ,专利 关键 词 尽 可 能 消除 类 别 间 以 及 类 别 内 
的 浪 确 定性 ,因此 ,使 用 类 别 信息 增益 和 文档 信息 增益 


之 积 表示 词语 的 信息 增益 16(w): 

IG(w) = (16C(w) +a) x (IGD(w) +a) 式 (4) 
其 中 ,a 为 很 小 的 实数 ,避免 16 为 0。 
一 个 词语 的 信息 增益 越 大 ,该 词语 所 携带 的 信息 
越 多 ,更 有 可 能 是 专利 的 关键 词 。 图 4 为 专利 关键 词 
内 部 评价 方法 示例 ,每 篇 专利 中 包含 在 干 词语 。 目 标 
专利 为 di ,为 一 个 关于 锂 离子 电池 正极 材料 相关 发 明 
专利 。 表 1 为 对 应 的 词语 "发明 “电池 ”和 ”三 元 ”的 
言 息 增益 值 。 由 表 1 可见, 词 “ 发 明 ” 由 于 在 各 类 别 以 
及 目标 类 别 中 均 有 大 量 均匀 出 现 ,其 类 别 信息 增益 和 
文档 信息 增益 均 很 小 ; 词 “电池 ”在 目标 类 别 的 各 专利 
文档 中 大 量 均 匀 出 现 , 而 在 其 他 类 别 中 较 少 出 现 ,具有 
较 低 的 文档 信息 增益 值 和 较 高 的 类 别 信息 增益 值 ; 词 
“三 元 ” 仅 在 目标 类 别 的 少数 专利 文档 中 出 现 , 具 有 和 较 
高 的 文档 信息 增益 值 和 类 别 信息 增益 值 ,使 得 其 最 终 
的 信息 增益 值 最 高 ,从 而 具有 和 较 强 的 区 分 类 别 间 和 类 
别 内 专利 的 能 力 。 由 此 可 见 , 本 文 提出 的 信息 增益 能 
够 较 好 地 刻画 一 个 词 给 已 有 专利 文献 所 带 来 的 信息 增 
量 , 具 有 一 定 的 合理 性 。 


CN 
©O a 
CN GC c, 
加 国 2 
> 由 ds di d, 三 ; d. 
站 发 明 发 明 发 明 朋 发明 明 
DC 电池 电池 电池 石 黑 烯 石墨 烯 石墨 烯 
GE yr 正极 应 用 应 用 性 能 制备 
CS 
LE | 
oe TE 
@O 图 4 基于 信息 增益 的 内 部 评价 方法 示例 
1 信息 增益 计算 示 侦 
表 1 信息 增益 计算 示例 抽取 的 | | 抽取 的 抽取 的 | | 抽取 的 
间 类 别 信息 增益 文档 信息 增益 信息 增益 相似 度 关键 词 | | 关键 记 Dp 关键 词 | | 关键 记 
发 明 1.0-1.0 =0 1.58 -1.58 = 0 0.01 
电池 1.0-0 = 1.0 1.58 -1.58 = 0 0.11 目标 专利 “引用 专利 目标 专利 ”随机 专利 
三 元 1.0-0 =1.0 1.58 -0 = 1.58 1.85 相似 专利 随机 专利 对 


注 :( 式 (4) 中 a = 0.1) 
3.2.2 ”基于 相似 度 的 外 部 评价 方法 

基于 相似 度 的 外 部 评价 方法 数据 集 构 建 如 图 5 所 
示 。 给 定 目 标 专 利 ,使 用 目标 专利 和 引用 专利 构造 相 
似 专利 对 ,使 用 目标 专利 和 随机 专利 构造 随机 专利 对 ， 
使 用 抽取 的 关键 词 集 分 别 计算 相似 专利 对 和 随机 专利 
对 的 相似 度 。 若 抽取 的 关键 词 能 够 准确 表示 专利 主题 
内 容 , 则 相似 专利 对 的 相似 度 应 大 于 随机 专利 相似 对 
的 相似 度 。 


5 相似 专利 对 与 随机 专利 对 构建 


具体 地 ,给 定 目 标 专 利 4, 与 其 引用 专利 & ,以 及 
随机 专利 d, ,采用 抽取 的 关键 词 表示 专利 文档 ,计算 两 
个 专利 d; 和 的 相似 度 sim: 
sim( di,d,) =1dNd,l 式 (5) 
其 中 ,1dil 表 示 专 利 d; 中 包 售 的 关键 词 数 目 ,1d 
Mdl 表 示 专 利 d; 和 相同 关键 词 数 目 。 相 似 专利 对 
中 包含 的 相同 关键 词 越 多 , 则 相似 度 越 高 ,表明 两 个 专 
利 越 相似 ;车 两 个 专利 中 包含 的 相同 关键 词 越 少 , 则 相 
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似 度 越 低 ,表明 这 两 个 专利 越 不 相似 。 
最 终 , 根 据 相 似 专利 对 的 相似 度 和 随机 专利 对 的 
相似 度 差 值 ,形成 相似 度 比 (similarity difference, SD): 
SD = sim(d,d.) -sim(d,d,) 式 (6) 
表明 相似 专利 对 具有 的 相同 关键 词 越 多 ,随机 专 
利 对 具有 的 相同 关键 词 越 少 , 抽 取 的 关键 词 更 为 合理 。 


4 评价 模型 有 效 性 实验 


本 部 分 通过 锂 离 子 电池 专利 数据 ,以 验证 提出 的 
基于 信息 增益 与 相似 度 的 评价 模型 的 有 效 性 。 
4.1 数据 来 源 

锂 离 子 电 池 由 日 本 SONY 公司 于 1990 年 研制 成 
功 并 实现 商品 化 ,锂电 池 以 其 工作 电压 高 能量 密度 
高 循环 寿命 长 \ 自 放电 低 、 无 记忆 效应 、 无 污染 、 安 全 


性 能 好 等 独特 优势 ,从 一 出 现 就 成 为 电化 学 领域 的 研 


究 热点 。 目 前 已 广泛 应 用 于 移动 电话 \ 便 携 式 计算 机 、 


境 污染 等 问题 的 日 益 突 出 ,开发 可 持续 发 展 新 能 源 成 
为 当务之急 , 锂 离 子 电池 作为 一 种 新 型 高 能 绿色 电池 
备 受 关注 。 近 年 来 随 着 锂 离 子 电池 技术 进步 ,更 是 被 
广泛 应 用 于 电动 汽车 和 储 能 电站 等 各 方面 。 包 括 中 国 
在 内 的 主要 国家 已 提出 了 明确 的 燃油 车 禁 售 时 间 表 ， 
各 主流 汽车 厂商 投入 巨 资 来 开发 搭载 锂电 池 的 新 能 源 
汽车 。 锂 离子 电池 关键 材料 主要 是 位 于 整个 锂 离子 电 
池 产 业 链 中游 的 正极 材料 .负极 材料 .电解 液 . 隔 膜 。 
因此 ,本 文 基于 中 国 国家 知识 产权 局 专利 数据 库 ,检索 
锂 离子 电池 中 国 发 明 专 利 , 从 检索 到 的 发 明 专 利 中 分 
别 抽取 2 000 个 专利 标题 与 摘要 ,形成 C, .C,、Cs 和 C4 
4 个 类 别 锂 离 子 电池 专利 数据 集 。 数 据 集 信 息 如 表 2 
所 示 : 


D 表 2 数据 集 信 息 
A 检索 条 件 类 别 说 明 数量 /个 


ey (摘要 =“ 锂 离子 电池 ”and“ 正 极 ") and( IPC = HO1M( 用 于 直接 转变 化 学 能 为 电能 的 方法 或 装置 ,例如 电池 组 )) 。” 锂 离子 电池 正极 材料 1 000 
_C2” (摘要 =“ 锂 离子 电池 ”and“ 负 极 ') and( IPC = HO1M( 用 于 直接 转变 化 学 能 为 


锂 离子 电池 负极 材料 ”1 000 


了 Te 
» 
人 ea 


Rb 


) 数据 处 理 
CN 首先 ,对 收集 的 专利 语 料 进行 预 处 理 。 由 于 中 文 
文 梁 的 词 与 词 之 间 没 有 间隔 ,为 了 使 计算 机 能 够 识别 
谢 活 ,需要 对 中 文 专利 文本 进行 分 词 预 处 理 。 此 外 , 专 
利 灾 本 集中 包含 一 些 使 用 频率 高 但 信息 含量 少 的 词 ， 
< 的“ 是" 等。 解决 该 问题 的 方法 是 利用 停 用 词 表 
将 遂 些 词语 从 专利 文本 中 剔除 。 最 后 , 预 处 理工 作 还 
包括 英文 大 小 写 格式 转换 .去 除 特殊 符号 等 工作 。 
实验 从 C, - Cs 中 分 别 选择 50 个 包含 引文 的 专利 
作为 目标 专利 ,并 将 目标 专利 的 引用 专利 作为 其 相似 
专利 ,如 表 3 所 示 , 由 3 位 领域 专家 为 目标 专利 和 引用 
专利 标注 8 个 关键 词 ,使 用 两 两 交集 作为 最 终 关键 记 
标注 结果 ,并 对 人 工 标注 结果 使 用 Kappa 值 进行 评测 ， 
Kappa 得 分 大 于 0.8 ,表明 标注 数据 的 有 效 性 。 


4 


el 


表 3 人 工 标 注 专 利 关键 词 (单位 /个 ) 
类 别 目标 专利 数 引用 专利 数 
好 50 50 
C: 50 50 
C3 50 50 
C4 50 50 


在 内 部 评价 方法 验证 中 ,生成 每 个 目标 专利 的 候 
选 关 键 词 ,计算 人 工 标注 关键 词 的 信息 增益 的 平均 值 ， 


上旬 
em 
人 (摘要 = “ 锂 离子 电池 ”and “电解 液 " ) and ( IPC = HOLIM( 用 于 直接 转变 化 学 能 为 电 角 
C9 村 (摘要 = ' 锂 离子 电池 ”and“ 隔 膜 " ) and ( IPC = HO1M( 用 于 直接 转变 化 学 能 为 电 


E 的 方法 或 装置 ,例如 电池 组 ) ) 
的 方法 或 装置 ,例如 电池 组 ) ) 


锂 离 子 电池 电解 液 。 1 000 


能 的 方法 或 装置 ,例如 电池 组 ) ) 锂 离子 电池 隔膜 1 000 


以 及 剩 下 的 非 关键 词 的 信息 增益 平均 值 ,其 中 式 (4) 
中 oa =0.01。 

在 外 部 评价 方法 验证 中 ,选择 目标 专利 与 对 应 的 
引用 专利 ,形成 相似 专利 对 ,然后 选择 与 目标 专利 不 同 
类 主题 的 其 他 目标 专利 形成 随机 专利 对 ,利用 专家 标 
注 关 键 词 ,计算 专利 相似 度 差 。 


4.3 结果 分 析 
4.3.1 内 部 评价 方法 


图 6 为 内 部 评价 方法 的 实验 结果 。 由 图 6 可 见 ， 
在 CC 、C; 和 C44 个 类别 中 ,关键 词 信息 增益 均值 分 
别 为 10.51.9.43 .9.38 和 12. 61 , 非 关键 词 的 信息 增益 
均值 为 4.04 ,4.26.2.23 和 35.11 ,表明 关 键 词 的 信息 增 
益 显 车 高 于 非 关键 词 的 信息 增益 ,说 明 专 利 关键 词 通 
常 携带 更 多 的 信息 量 , 能 够 区 分 不 同类 别 间 以 及 本 类 
别 内 不 同 专利 文献 ,实验 结果 表明 利用 信息 增益 评估 
专利 关键 词 的 有 效 性 。 

表 4 给 出 类 别 C, 锂 离子 电池 正极 材料 中 发 明 专利 
《 碳 包 覆 三 元 正极 材料 的 制备 方法 及 该 碳 包 有 覆 三 元 正极 
材料 》( 申 请 号 CN201310433513.7) 的 各 候选 关键 词 的 信 
息 增 益 值 。 该 发 明 专利 针对 锂 离子 电池 三 元 正极 材料 
改 性 问题 ,提出 一 种 采用 有 机 碳 包 履 三 元 正极 材料 的 方 
法 。 根 据 该 专利 标题 和 摘要 生成 候选 关键 词 。 
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日 关键 词 
和 非 关 键 词 到 
10.51 
10 9.43 9.38 
六 
下 5.11 
和 4.04 4.26 
.23 
0 
Cl C2 C3 C4 
类 别 
6 内 部 评价 方法 实验 结果 
表 4 内 部 评价 方法 实例 
序号 候选 关键 词 。 类 别 信 息 增 益 ”文档 信息 增益 。“ 信息 增益 
1 镍 盐 2.32 6.94 16.19 
有 导电 碳 2.32 6.90 16.10 
> 碳 包 覆 D3 6.60 15.40 
Le®) 前 驱 体 2.32 6.43 15.01 
TY 有 机 碳 源 0 4.04 9.44 
三 元 正极 材料 0.62 8.29 5.23 
正极 材料 0.49 8.85 4.43 
二 锂 离子 电池 0.59 7.16 4.30 
ER 销 盐 0.43 9.41 4.14 
OD 锰 盐 0.73 5.08 3.77 
GD 化 合 物 0.52 4.30 2.28 
GNI 真空 0.21 5.60 1.23 
(em) 网 络 状 0.28 3.73 1.08 
GNI 通道 0.74 1.27 0.96 
S 媒介 0.10 2.59 0.29 
= 6m 导电 0.07 2.74 0.22 
> 倍率 0.03 4.44 0.18 
5 混合 物 0. 12 1. 16 0.15 
ES 性 能 0.04 1 2 0.01 


-二 : 粗 体 表示 金 标 准 关键 词 


a 4 可 见 ,“ 三 元 正极 材料 ”“ 有 机 碳 源 “前 驱 
体 ” 等 关键 词 具有 较 大 的 类 别 信息 增益 和 较 大 的 文档 
信息 增益 ,表明 关键 词 携带 较 多 的 信息 量 ,能 够 区 分 不 
同类 别 ,也 能 区 分 同类 别 的 不 同 专利 。 相 反 ，“ 化 合 
物 “ 混 合 物 " 等 词 因 在 各 类 别 以 及 同类 别 的 不 同 专利 
中 均 有 较 多 的 出 现 ,因此 ,这 些 词 的 类 别 信息 增益 和 文 
档 信息 增益 值 均 较 小 ,携带 的 信息 量 较 少 ,不 能 体现 专 
利 的 新 里 性 和 创造 性 ,因此 具有 和 较 小 的 信息 增益 。 由 
此 可 见 ,基于 信息 增益 的 内 部 评价 方法 能 够 有 效 地 评 
估 专 利 中 词语 携带 的 信息 量 , 可 作为 专利 关键 词 的 判 
定 指标 。 

4.3.2 外 部 评价 方法 

外 部 评价 方法 结果 如 图 7 所 示 。 由 图 7 可 见 , 在 
C1 一 CG 类别 中 ,相似 度 差分 别 为 1.92、1.73、1.79 和 
2.34 ,表明 若 使 用 正确 的 关键 词 表示 专利 , 则 相似 专利 


对 的 相似 度 大 于 随机 专利 对 的 相似 度 。 结 果 表 明 通 过 
构建 目标 专利 的 相似 专利 对 和 随机 专利 对 ,正确 的 关 
键 词 能 够 反映 专利 主题 ,从 而 使 得 引用 对 比 随 机 对 具 
有 更 高 的 相似 度 。 实 验 结 果 表 明 外 部 评价 方法 的 有 


3 


2.34 
2 102 7 179 
| | 
0 
cl C2 C3 c4 
类 别 
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表 5 为 外 部 评价 方法 实例 。 其 中 目标 专利 为 《 碳 
包 禾 三 元 正极 材料 的 制备 方法 及 该 左 包 徐 三 元 正极 材 
料 》( 申 请 号 CN201310433513.7)。 其 相似 专利 为 其 引 
用 专利 《一 种 锂 离子 电池 三 元 正极 材料 的 制备 方法 》 
(申请 号 CN201110314584.6) ,该 发 明 专 利 为 改进 锂 离 
子 三 元 正极 材料 的 不 足 ,制备 无 团聚 、 形 貌 规则 的 单 虽 
三 元 正极 材料 ,同时 对 三 元 正极 材料 进行 返 杂 和 表面 
包 履 ,使 得 该 正极 材料 具有 和 较 好 的 循环 性 能 和 较 高 的 
安全 性 能 ,该 引用 专利 的 人 工 标 注 关 键 词 如 表 5 所 示 : 

表 5 外 部 评价 方法 实例 


相似 度 差 


与 目标 专利 


类 型 
专利 类 专利 名 a 


关键 词 


目标 专利 《 碳 包 履 三 元 正极 材料 ” 镍 盐 
的 制备 方法 及 该 碳 包 覆 ”导电 碳 
三 元 正极 材料 》 碳 包 覆 

前 驱 体 

三 元 正极 材料 

正极 材料 

锂 离 子 电池 

锂 离 子 电池 

正极 材料 

三 元 正极 材料 

碳 链 

有 机 添加 剂 

前 驱 体 

单 晶 

表面 包 履 

锂 离子 电池 

负极 材料 

石墨 碳 

等 离子 体 

浸润 性 

电解 液 

能 量 密 


正极 材料 
三 元 正极 材料 
锂 离子 电池 


引用 专利 《一 种 锂 离子 电池 三 元 
正极 材料 的 制备 方法 》 


随机 专利 《 锂 离 子 电池 负极 材料 锂 离子 电池 
的 制备 方法 、 锂 离子 电池 


负极 及 锂 离子 电池 》 


沽 油 
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从 表 5 可 以 看 出 ,目标 专利 的 随机 专利 为 类 别 C， 
理 离 子 电 池 负 极 材料 中 随机 抽取 的 专利 《 锂 离子 电池 
负极 材料 的 制备 方法 、 锂 离子 电池 负极 及 锂 离子 电池 》 
(申请 号 CN201210092946.6)。 该 发 明 专 利 提供 了 
种 锂 离子 电池 负极 材料 的 制备 方法 ,使 得 锂 离子 电池 
负极 对 电解 液 具有 良好 的 浸润 性 。 结 果 表 明 利 用 关键 
词 表 示 专 利 时 , 比 起 随机 专利 ,相似 专利 具有 更 多 共同 
的 专利 关键 词 ,表明 使 用 本 文 提出 的 外 部 评价 方法 评 
估 专 利 关 键 词 的 有 效 性 。 


5_ 评 价 模型 应 用 实证 


用 内 部 评价 和 外 部 评价 方法 进行 评估 。 

内 部 评价 方法 应 用 结果 如 图 8 所 示 。 由 图 8 可 
见 , 在 3 种 专利 关键 词 抽取 策略 中 ,在 C1、C,、C3 和 C， 
类 别 中 ,claim 策略 的 信息 增益 值 均 最 大 ,分 别 为 9.42、 
8.55 .8.61 和 10. 07 ,表明 使 用 claim 策略 进行 关键 词 
抽取 优 于 abstract 和 all 抽取 策略 。 


12 abstract 
claim 10.07 


10 


本 部 分 应 用 第 3 部 分 提出 的 评价 模型 ,比较 3 种 
不 同 专利 关键 词 抽 取 策略 进行 评价 模型 应 用 实证 
研究 。 
过 具体 地 ,专利 文本 包括 标题 摘要、 权利 要 求 书 和 
讽 加 书 等 4 个 部 分 。 其 中 ,标题 和 摘要 是 对 发 明 的 梳 
要 仲 描述 ,指出 发 明 所 属 领域 .需要 解决 的 技术 问题 、 
民 表 的 主要 特征 和 用 途 ,文字 简短 ,主要 为 专利 检索 提 
供 许 便 途径 ,不 具有 法 律 效力 。 权 利 要 求 书 是 一 种 法 
律 旨 书 ,描述 发 明 的 技术 特征 ,包含 体现 专利 新 颖 性 和 


j 胃 性 的 全 部 必 不 可 少 的 技术 手段 或 技术 方法 ,并 据 
此 确定 专利 保护 范围 及 进行 专利 侵权 判定 ,是 专利 的 
楼 阐 凶 分。 说 明 书 是 对 发 明 的 具体 说 明 ,是 对 权利 要 
求 过 的 支持 ,对 于 权利 要 求 中 的 每 个 必要 技术 特征 , 均 
需要 在 说 明 书 中 给 出 详细 说 明 ,通常 包括 技术 领域 , 背 
景 咕 术 发明 内容 、 附 图 说 明 、 实 施 条 件 等 内 容 。 目 前 
的 态 利 关键 词 抽取 研究 通常 集中 于 分 析 专利 标题 和 摘 
要 G6 以 抽取 专利 关键 词 。 本 部 分 则 尝试 从 专利 不 同 部 
分 选取 候选 关键 词 ,使 用 经 典 的 TF-IDF 抽取 候选 关键 
词 ,使 用 本 文 提出 的 方法 评估 不 同 抽取 策略 。 具 体 抽 


取 策 略 如 表 6 所 示 : 
表 6 3 种 专利 关键 词 抽取 策略 
策略 名 候选 关键 词 生成 部 分 排序 方法 
abstract 标题 ,摘要 TF-IDF 
claim 标题 ,摘要 ,权利 要 求 书 TF-IDF 
all 标题 ,摘要 ,权利 要 求 书 ,说 明 书 TF-IDF 


为 此 ,实验 以 第 4.1 部 分 数据 为 基础 ,下 载 目 标 专 
利 . 引 文 专利 的 标题 \ 摘 要、 权利 要 求 书 和 说 明 书 等 文 
本 信息 ,进行 分 词 等 预 处 理工 作 , 使 用 词性 匹配 方法 ， 
根据 不 同 策略 ,分 别 从 标题 摘要、 权利 要 求 书 和 说 明 
书 中 生成 候选 关键 词 ,然后 使 用 TF-IDF 排序 方法 计算 
各 个 候选 关键 词 的 权重 ,将 排名 最 高 的 八 个 候选 关键 
词 作为 关键 词 。 根 据 不 同 抽取 策略 得 到 的 关键 词 ,使 


9.42 
8.55 8.61 
:23 
8 72 7.04Gos 7:14 
汪 6 
拒 
4 
2 
0 
wl C3 C4 


类 别 
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表 7 列 出 了 目标 专利 《 碳 包 获 三 元 正极 材料 的 制 
备 方法 及 该 碳 包 和 覆 三 元 正极 材料 》( 申 请 号 
CN201310433513.7) 使 用 3 种 策略 抽取 关键 词 信息 增 
益 和 平均 信息 增益 。 由 表 7 可 见 , 使 用 claim 策略 抽取 
的 关键 词 平均 信息 增益 最 高 ,表明 使 用 claim 策略 抽取 
的 关键 词 具 有 更 高 的 准确 性 。 

表 7 ”内 部 评价 方法 方法 应 用 实例 


关键 词 抽取 策略 抽取 的 关键 词 信息 增益 。 ”平均 信息 增益 
abstract 导电 碳 16. 10 6.69 
碳 包办 15. 40 
前 驱 体 15.01 
三 元 正极 材料 5.23 
网 络 状 1.08 
媒介 0.29 
导电 0.22 
混合 物 0. 15 
claim 导电 碳 16. 10 9.64 
镍 盐 16. 07 
碳 包 覆 15.40 
前 驱 体 15.01 
三 元 正极 材料 5.23 
有 机 碳 源 5.10 
销 盐 4.14 
分 散 体系 0.08 
all 导电 碳 16. 10 8.23 
碳 包 覆 15.40 
前 驱 体 15.01 
有 机 碳 源 9.44 
三 元 正极 材料 5.23 
正极 材料 4.43 
分 散 体系 0.08 
材料 0.17 


注 : 粗 体 表 示 金 标准 关键 词 
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9 为 外 部 评价 方法 应 用 结果 ,在 Ci、C,、C; 和 C， 
类 别 中 ,使 用 claim 策略 的 专利 关键 词 抽取 获得 最 高 的 
相似 度 差 , 分 别 为 1.51、1.37、1.25 和 1.49, 实 验 结果 
表明 使 用 claim 策略 能 够 获得 最 好 的 关键 词 抽取 结果 。 


2 abstract 
claim 
.51 1.49 
3 
L135 
1 
x 
至 0.79 0.79 0.81 
(6 0.63 寺 0.57 
0.51 0.54 
0 
Cl C2 C3 C4 
类 别 
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之 表 8 为 外 部 评价 方法 应 用 实例 。 目 标 专利 为 碳 包 
党 元 正极 材料 的 制备 方法 及 该 碳 包 覆 三 元 正极 材料 》 
(fs CN201310433513.7) ,其 引用 专利 为 人 《一 种 锂 
离 季 电池 三 元 正极 材料 的 制备 方法 》( 申 请 号 
CN291110314584.6) ,其 随机 专利 为 《 锂 离子 电池 负极 材 


综 上 所 述 ,从 内 部 评价 方法 和 外 部 评价 方法 应 用 
结果 可 见 ,专利 文献 不 同 于 其 他 文献 ,仅仅 利用 标题 和 
摘要 抽取 关键 词 ,可 能 遗漏 一 些 关 键 词 。 究 其 原因 ,一 
些 专 利 摘要 存在 书写 过 于 简单 的 问题 , 且 专 利 摘要 过 
于 简短 ,无 法 使 用 TF-IDF 方法 很 好 地 抽取 专利 关键 
词 。 专 利 说 明 书 内 容 详实 ,包含 较 多 的 实例 和 具体 步 
又 和 技术 细节 ,但 同时 也 包含 较 多 的 噪声 数据 ,从 而 导 
致 抽取 的 专利 关键 词 准确 性 不 尽 理想 。 相 反 ,专利 权 
利 要 求 书 既 是 技术 文书 ,也 是 法 律 文书 ,体现 了 专利 的 
新 颖 性 和 创造 性 ,是 专利 的 核心 部 分 。 因 此 ,不同 于 其 
他 文献 ,实验 表明 ,从 权利 要 求 书 中 抽取 专利 关键 词 比 
从 摘要 和 说 明 书 中 抽取 关键 词 具 有 更 好 的 准确 性 


6 结论 


专利 关键 词 是 表明 专利 文献 主题 内 容 的 一 组 词 或 
者 短语 ,被 广泛 应 用 于 专利 分 类 、 新 兴 技 术 监 测 . 专 利 
检索 ,专利 聚 类 等 专利 分 析 之 中 。 利 用 计算 机 自动 .高 
效 、 准 确 地 抽取 专利 关键 词 是 一 个 重要 的 研究 课题 。 
目前 的 专利 关键 词 抽取 研究 主要 集中 于 专利 关键 词 抽 
取 算 法 的 改进 ,而 各 种 改进 算法 有 效 性 评价 通常 采用 


桩 制备 方法 锂 离子 电池 负极 及 锂 离子 电池 》( 申请 号 
CRa91210092946.6) 。 使 用 3 种 抽取 策略 抽取 的 专利 关 
链 记 以 及 相似 度 比 ,claim 抽取 策略 具有 最 大 的 相似 度 差 ， 
表 阵 claim 抽取 的 关键 词 最 好 地 刻画 了 专利 主题 内 容 。 
SC 表 8 外 部 评价 方法 应 用 实例 
3 


导电 碳 三 元 正极 材料 。 锂 离子 电池 。 1-0 =1 
碳 包 六 碳 狂 有 机 添加 剂 “石墨 碳 
EC3 前 驱 体 原料 偏 析 填充 量 
”三 元 正极 材料 高 温 反应 过 程 。 负极 材料 
网 络 状 胶体 麻 浸润 性 
媒介 研磨 过 程 浸润 程度 
导电 混合物 。 混 料 均匀 度 研磨 “等 离子 体 处 理 
装置 
daim 。 导电 碳 三 元 素 中 间 体 。 等 离休 2-0=2 
镍 起 三 元 正极 材料 锂 离子 电池 
碳 包 六 镍 钴 多 处 理 装置 
前 驱 体 可 溶性 盐 石墨 碳 
三 元 正极 材料 “ 碳 链 有 机 添加 剂 ”导电 基体 
有 机 碳 源 。 胶体 磨 硫化 所 
钻 盐 正极 材料 负极 材料 
正极 材料 。 刹 源 氮气 
al 导电 碳 气流 订 石墨 碳 1-0=1 
碳 包 六 交 体 麻 样品 
前 驱 体 保温 等 离子 体 
有 机 碳 源 三 元 正极 材料 处理 装置 
三 元 正极 材料 摩尔 锂 离子 电池 
正极 材料 。 产物 导电 基体 
分 获 体系 。 成 型 物料 氨 气 
材料 压 片 机 浸润 性 


算法 抽取 的 关键 词 与 专家 人 工 标注 的 关键 词 进行 匹 
配 。 然 而 ,依靠 专家 人 工 标注 专利 关键 词 费 时 费力 且 
标注 数量 有 限 ,存在 领域 局 限 性 ,语言 依赖 性 .主观 性 
等 问题 ,使 得 专利 关键 词 抽取 算法 无 法 有 效 地 被 评价 ， 
阻碍 专利 关键 词 抽取 算法 的 进一步 深入 研究 。 

本 文 从 内 部 评价 和 外 部 评价 两 个 角度 ,提出 基于 
信息 炉 的 内 部 评价 模型 与 基于 相似 度 的 外 部 评价 模 
型 ,以 缓解 目前 专利 关键 词 抽取 算法 评价 方法 的 不 足 。 
基于 信息 炉 的 内 部 评价 方法 分 别 考察 每 个 被 抽取 的 关 
键 词 ,使 用 类 别 信息 增益 和 文档 信息 增益 度量 每 个 被 
抽取 的 关键 词 所 携带 的 信息 量 ,从 而 刻画 算法 抽取 关 
键 词 的 创造 性 和 新 颖 性 。 基 于 相似 度 的 外 部 评价 方法 
则 用 算法 抽取 的 关键 词 集 表 示 专 利 , 比较 相似 专利 对 
相似 度 与 随机 专利 对 相似 度 ,评价 算法 抽取 的 关键 词 
刻画 专利 主题 内 容 的 准确 性 。 实 验 结果 验证 了 本 文 提 
出 的 基于 信息 增益 与 相似 度 的 评价 模型 的 有 效 性 。 进 
一 步 地 ,利用 本 文 提出 的 评价 模型 ,进行 实际 应 用 , 评 
佑 3 种 专利 关键 词 抽取 策略 ,实验 表明 本 文 提出 评价 
模型 具有 有 效 性 与 可 行 性 。 该 评价 模型 主要 用 于 评价 
专利 关键 词 抽取 算法 的 有 效 性 ,但 模型 也 可 用 于 学 术 
文献 等 关键 词 抽取 算法 的 评价 ,具有 一 定 的 适用 性 。 

然而 ,本 文 提出 的 评价 模型 也 存在 需要 进一步 改 
进 之 处 。 首 先 , 基 于 信息 增益 的 内 部 评价 模型 主要 评 


115 


团 定 情 良 三 作 


第 66 卷 第 6 期 2022 年 3 月 


ChinaXiv 合 作 期 刊 


估 了 抽取 的 关键 词 刻 画 专 利 的 新 新 性 和 创造 性 的 能 
力 , 但 是 ,在 专利 中 ,存在 一 些 数值 上 的 创新 ,如 电池 存 
储 容量 提高 了 20% 等 ,这 需要 进一步 完善 评价 模型 ; 
其 次 ,本 文 提出 的 评价 模型 需要 构建 相应 的 专利 集 ,而 
构建 专利 集 对 评价 模型 稳定 性 的 影响 也 需要 进一步 研 
究 ;最 后 ,本 文 提出 的 评价 模型 对 于 学 术 文 献 等 关键 词 
抽取 算法 的 适用 性 也 需要 在 将 来 的 实验 中 加 以 验证 。 
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valuation model of patent keyword extraction algorithm based on information gain and similarity is proposed. | Meth- 
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intrinsic and extrinsic levels. The intrinsic evaluation model measured the information gain of each keyword extracted 
by the evaluation algorithm to evaluate the novelty and creativity of the extracted keywords. The extrinsic evaluation 
model used the keyword set extracted by the evaluation algorithm to represent the patents, and measured the effective- 
LS of the keywords extracted by the algorithm to describe the patent topic by calculating the similarity of relevant 
Katents. | Result/conclusion | Through the validation experiment of the evaluation model and the empirical research 
ee the application of the evaluation model, the results show that the evaluation model based on information gain and 
Gimilarity is feasible and effective. 
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